一、茶樹基因型數(shù)字化
基因型又稱遺傳型,是某一生物個(gè)體全部基因組合的總稱?;蛐蛿?shù)字化鑒定能夠高通量準(zhǔn)確鑒定基因型,是解析重要農(nóng)藝性狀相關(guān)遺傳信息的基礎(chǔ),是茶樹種質(zhì)資源研究的必然發(fā)展趨勢。
1.基因組組裝
2017—2018年,利用二代測序技術(shù)進(jìn)行基因組序列組裝的云抗10號和舒茶早基因組草圖陸續(xù)公布。其中,云抗10號組裝得到的基因組大小為3.02Gb,包括了36951個(gè)注釋編碼蛋白;舒茶早基因組大小為3.14Gb,包含33932個(gè)注釋編碼蛋白。
隨著三代測序和Hi-C技術(shù)的成熟,近些年公布了多個(gè)染色體水平的茶樹基因組。利用Hi-C技術(shù)將舒茶早基因組草圖提升到了染色體水平,scaffoldN50從原來的1.4Mb提升到218.1Mb,基因組中94.7%的序列被定位到了15條染色體中。利用PacBio和Hi-C技術(shù),構(gòu)建了染色體級別的舒茶早基因組,其大小為2.94Gb,具有50525個(gè)注釋編碼蛋白。利用PacBio和Hi-C技術(shù)獲得了茶樹碧云染色體級別的基因組圖譜,其大小為2.92Gb,scaffoldN50為195.68Mb。公布了龍井43的染色體級別基因組序列,其基因組大小為3.26Gb,編碼33556個(gè)注釋蛋白。華中農(nóng)業(yè)大學(xué)的研究團(tuán)隊(duì)公布了云南省古茶樹DASZ基因組序列,該基因組為3.11Gb,編碼33021個(gè)注釋蛋白。福建農(nóng)林大學(xué)和中國農(nóng)業(yè)科學(xué)院基因所發(fā)布了黃棪和鐵觀音2個(gè)品種染色體級別的基因組序列。黃棪茶樹基因組為2.94Gb,包含43779個(gè)蛋白質(zhì)編碼基因。鐵觀音茶樹基因組大小為3.06Gb,包含了42825個(gè)蛋白質(zhì)編碼基因。
茶樹基因組和基因家族的進(jìn)化
‘龍井43’基因組特征和質(zhì)量評估結(jié)果
2.單核苷酸多態(tài)SNP分型
全基因組重測序能夠基于SNP實(shí)現(xiàn)全基因組水平上的基因型分型,近年來逐步開始應(yīng)用于茶樹種質(zhì)資源的鑒定。對來自中國、老撾、俄羅斯、阿塞拜疆和伊朗的81個(gè)栽培型和野生型茶樹進(jìn)行重測序,共檢測到6252201個(gè)SNP位點(diǎn),基于基因型進(jìn)行了系統(tǒng)發(fā)育分析,將這些資源分為3個(gè)類群。利用重測序技術(shù)對來自世界各地的139份茶樹種質(zhì)資源進(jìn)行分析,得到了21887萬個(gè)SNP位點(diǎn)的基因型分型結(jié)果,平均1kb就有67個(gè)SNP位點(diǎn)。對190份茶樹資源進(jìn)行重測序分析,共鑒定到9407149個(gè)SNP位點(diǎn),得到相關(guān)基因型分型結(jié)果,并進(jìn)行了茶樹種質(zhì)資源的系統(tǒng)發(fā)育分析。對金萱和云茶1號及其96個(gè)F1代進(jìn)行了全基因組重測序,利用8956個(gè)SNP位點(diǎn)的基因型數(shù)字化結(jié)果構(gòu)建了遺傳圖譜。
簡化基因組測序是利用限制性內(nèi)切酶對DNA進(jìn)行酶切,并對酶切片段兩端序列進(jìn)行高通量測序,通過鑒定獲得的SNP信息進(jìn)行基因分型,是一種快速、簡單、低成本的基因型數(shù)字化方法?;谟⒈避S單株及其148個(gè)F1子代利用SLAF-seq技術(shù)開發(fā)出了6042個(gè)SNP標(biāo)記,并以此建立了首張茶樹SNP遺傳圖譜?;邶埦?3、白毫早及其327個(gè)F1代使用2bRAD測序技術(shù)獲得了13446個(gè)SNP標(biāo)記,構(gòu)建了高密度遺傳圖譜,并得到了27個(gè)與兒茶素相關(guān)的QTL位點(diǎn)。利用簡化基因組技術(shù)對59份茶組植物進(jìn)行測序,得到了248772個(gè)高質(zhì)量SNP位點(diǎn)的分型結(jié)果,隨后對這些SNP位點(diǎn)進(jìn)行了主成分分析、遺傳結(jié)構(gòu)分析和基因流分析,結(jié)果發(fā)現(xiàn)大廠茶與疏齒茶有遺傳結(jié)構(gòu)上的差異,且證明茶組植物種內(nèi)親緣關(guān)系受其地理來源的直接影響。對龍井43、白雞冠及其雜交產(chǎn)生的198個(gè)F1個(gè)體進(jìn)行了簡化基因組測序,構(gòu)建了包含2688個(gè)SNP標(biāo)記的遺傳圖譜,并根據(jù)2年的氨基酸數(shù)據(jù)進(jìn)行了QTL分析,最終得到了4個(gè)與氨基酸含量相關(guān)的QTL位點(diǎn)。
轉(zhuǎn)錄組測序能夠鑒定基因表達(dá)區(qū)的SNP位點(diǎn),進(jìn)行SNP分型。完成了古茶樹DASZ染色體級別的基因組組裝,并在此基礎(chǔ)上與217份不同茶樹種質(zhì)資源的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行比較。結(jié)果表明,81.1%的DASZ注釋基因被覆蓋SNPs,其中4個(gè)SNP與ECG的含量顯著關(guān)聯(lián)。利用139份中國茶樹品種的轉(zhuǎn)錄組數(shù)據(jù)鑒定到了925854個(gè)高質(zhì)量的SNP,并將139份茶樹品種分為5個(gè)類群,發(fā)現(xiàn)每個(gè)類群各有特異代謝物積累和基因表達(dá)差異,其中阿薩姆茶具有豐富的黃酮類化合物積累。
二、茶樹表型數(shù)字化
表型組學(xué)旨在集成自動化平臺裝備和信息化技術(shù)手段,可以系統(tǒng)、高效地獲取表型信息,以實(shí)現(xiàn)植物表型的數(shù)字化精準(zhǔn)鑒定。表型組學(xué)常常構(gòu)建一些表型檢測平臺,搭載圖像、點(diǎn)云、光譜、紅外、X射線等技術(shù)來快速高效地?cái)?shù)字化采集植物多尺度的大量表型數(shù)據(jù),目前已在玉米、小麥、大豆等較多作物上應(yīng)用。
表型組學(xué)在茶樹種質(zhì)資源鑒定評價(jià)中的應(yīng)用還處于起步階段,一些簡單的技術(shù)在茶樹葉片形態(tài)特征和農(nóng)藝性狀相關(guān)的表型上開展了應(yīng)用。利用Photoshop對茶樹的葉面積進(jìn)行了測量,并與葉面積的經(jīng)驗(yàn)公式進(jìn)行對比,發(fā)現(xiàn)計(jì)算機(jī)測定的結(jié)果更加準(zhǔn)確。利用Photoshop對茶樹新梢的顏色和成熟葉的葉面積進(jìn)行了測定,并對其中的相關(guān)參數(shù)進(jìn)行了分析。但是這兩項(xiàng)工作都是基于Photoshop軟件進(jìn)行研究,導(dǎo)致關(guān)于圖像處理的操作有限,自由度小,同時(shí)工作效率也受到限制,難以處理大批量的茶樹葉片圖像。隨著數(shù)字化研究的不斷深入,像Python、R、MATLAB等編程語言因具有批量處理、速度快、應(yīng)用面廣等優(yōu)點(diǎn),漸漸成為了進(jìn)行茶樹表型數(shù)字化處理的主流工具。隨著無人機(jī)技術(shù)的發(fā)展,利用無人機(jī)對茶樹進(jìn)行表型分析成為了新的發(fā)展趨勢。利用3種模型分別通過無人機(jī)拍攝的茶園多光譜圖片對茶樹的氮、茶多酚和氨基酸的含量進(jìn)行評估。結(jié)果表明,SVM模型對于預(yù)測氮和茶多酚的含量最佳;PLSR模型預(yù)測氨基酸的含量是最佳的,同時(shí)證明空中預(yù)測結(jié)果與地面測量結(jié)果一樣可靠,這為茶樹種質(zhì)資源的精準(zhǔn)評價(jià)提供了技術(shù)支持。
SVM、PLS和BP模型被用于驗(yàn)證,并測量和預(yù)測的值進(jìn)行比較和分析:(a)使用支持向量機(jī)來預(yù)測氮(N);(b)利用SVM預(yù)測茶多酚(TP);(c)利用SVM預(yù)測氨基酸(AA);(d)PLS回歸預(yù)測N;(e)PLS回歸預(yù)測TP;(f)PLS回歸預(yù)測AA;(g)BP預(yù)測N;(h)利用BP預(yù)測TP;(i)利用BP預(yù)測AA。
目前,茶樹種質(zhì)資源表型數(shù)字化的應(yīng)用主要體現(xiàn)在基于分類器結(jié)合圖像特征對茶樹種質(zhì)資源識別的方面。提取了17份茶樹種質(zhì)資源的14個(gè)圖像特征,并基于圖像特征進(jìn)行了遺傳多樣性分析,并利用人工神經(jīng)網(wǎng)絡(luò)對茶樹品種進(jìn)行了預(yù)測。通過茶樹鮮葉圖像對10個(gè)茶樹品種進(jìn)行了識別。除了利用形態(tài)特征、紋理特征及顏色特征外,還使用多重分形特征來對葉片進(jìn)行描述,并用6種分類器同時(shí)建模比較分類精度。結(jié)果表明,SVM和隨機(jī)森林法的建模對茶樹種質(zhì)資源的分類精度較高,能達(dá)到90%左右。在利用圖像特征識別武夷巖茶的方面研究較多,2018年對SVM分類器的內(nèi)核進(jìn)行了優(yōu)化后,以提取的14個(gè)形狀和紋理圖像特征為基礎(chǔ),對水仙和肉桂這2份茶樹資源進(jìn)行識別,準(zhǔn)確率高達(dá)91%;2019年利用3種分類器通過灰度共生矩陣下的紋理特征對黃觀音、瑞香、丹桂和奇蘭4個(gè)品種的茶鮮葉進(jìn)行識別,其識別準(zhǔn)確率在80%左右,且結(jié)果證明KNN分類器的識別率最高;2020年利用整體與局部信息融合的CNN模型結(jié)合茶樹葉片的整體特征和局部特征對9個(gè)武夷巖茶茶樹品種進(jìn)行識別,識別率達(dá)到96.69%。
三、茶樹數(shù)字化管理與利用
隨著表型組和基因組的快速發(fā)展,大量種質(zhì)資源的數(shù)字化表型和基因型被鑒定,這使得很多重要的農(nóng)藝性狀被揭示。但是由于數(shù)據(jù)量大,導(dǎo)致共享利用不便,阻礙了茶樹重要農(nóng)藝性狀的分子解析。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,種質(zhì)資源信息數(shù)據(jù)庫的搭建可以快速實(shí)現(xiàn)數(shù)字化管理與利用。中國農(nóng)業(yè)科學(xué)院茶葉研究所利用生物信息技術(shù)和互聯(lián)網(wǎng)技術(shù)建設(shè)了茶樹種質(zhì)資源基因組變異大數(shù)據(jù)分析平臺。目前平臺已經(jīng)整合超過7000多萬個(gè)基因組變異位點(diǎn)、808份茶樹資源的基因型數(shù)據(jù)、464種代謝物的表型數(shù)據(jù)和430682個(gè)基因型-表型關(guān)聯(lián)位點(diǎn)。平臺主要用于茶樹種質(zhì)資源基因組變異的大數(shù)據(jù)在線分析,能夠根據(jù)基因組位置、基因信息、材料比較、基因或變異編號等不同的策略檢索基因組SNP和InDel。通過該平臺還能夠?qū)崿F(xiàn)茶樹種質(zhì)資源的代謝表型查詢及GWAS分析,快速挖掘性狀相關(guān)的SNP和InDel位點(diǎn)。此外,平臺還整合了在線Blast、序列提取、引物設(shè)計(jì)、群體遺傳分析等工具,為茶樹種質(zhì)資源的數(shù)字化利用與共享提供了一個(gè)用戶友好型平臺。安徽農(nóng)業(yè)大學(xué)構(gòu)建了茶樹信息檔案數(shù)據(jù)庫(TPIA),以舒茶早基因組圖譜為框架,整合了基因組信息、轉(zhuǎn)錄組、代謝組等數(shù)據(jù)。平臺還集成了功能富集分析、相關(guān)性分析、引物設(shè)計(jì)、序列比對等工具,有助于組學(xué)數(shù)據(jù)的數(shù)字化利用。南京農(nóng)業(yè)大學(xué)構(gòu)建了茶樹基因組數(shù)據(jù)庫(TeaPGDB),整合了已完成組裝的各個(gè)基因組數(shù)據(jù),方便科研人員進(jìn)行利用分析。此外,一些轉(zhuǎn)錄組相關(guān)的數(shù)據(jù)庫網(wǎng)站也陸續(xù)被開發(fā),如TeaCoN、TeaAS等。茶樹種質(zhì)資源數(shù)字化管理與利用能有效促進(jìn)茶樹種質(zhì)資源的保護(hù)、利用與共享,為茶樹系統(tǒng)演化研究、關(guān)鍵性狀解析、品種改良等提供了堅(jiān)實(shí)的基礎(chǔ)。
茶樹信息檔案數(shù)據(jù)庫(TPIA)
四、展望
1.組學(xué)技術(shù)
未來,組學(xué)技術(shù)將在茶樹種質(zhì)資源的數(shù)字化精準(zhǔn)鑒定方面不斷深入,利用基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀組學(xué)、蛋白組學(xué)、代謝組學(xué)、表型組學(xué)等技術(shù)手段,對茶樹種質(zhì)資源進(jìn)行高通量、多維度、精準(zhǔn)化的鑒定評估。與基因組學(xué)技術(shù)相比,表型組學(xué)技術(shù)在茶樹種質(zhì)資源中的應(yīng)用還比較落后,這阻礙了茶樹種質(zhì)資源的精準(zhǔn)評價(jià)和深入挖掘進(jìn)程。針對茶樹種質(zhì)資源的特性,加強(qiáng)茶樹表型鑒定設(shè)施平臺的建設(shè),開發(fā)對應(yīng)的數(shù)字化鑒定方法,從而提升茶樹種質(zhì)資源規(guī)?;?、批量化、精準(zhǔn)化鑒定評價(jià)的基礎(chǔ)和條件。
2.多組學(xué)聯(lián)合分析
伴隨著大量茶樹種質(zhì)資源被數(shù)字化精準(zhǔn)鑒定,多組學(xué)聯(lián)合分析將成為實(shí)現(xiàn)茶樹種質(zhì)資源創(chuàng)新利用的必然途徑。通過基因組學(xué)和生物信息學(xué)等技術(shù)手段,利用多組學(xué)聯(lián)合分析系統(tǒng)深入挖掘基因型、表型和環(huán)境型之間的內(nèi)在關(guān)聯(lián),研究茶樹表型對遺傳信息和環(huán)境變化的響應(yīng)機(jī)制。同時(shí),結(jié)合分子生物學(xué)、遺傳育種學(xué)、生物化學(xué)、合成生物學(xué)等技術(shù),深入解析茶樹重要農(nóng)藝性狀的分子機(jī)理和遺傳基礎(chǔ),為茶樹種質(zhì)資源的創(chuàng)新利用提供堅(jiān)實(shí)基礎(chǔ),并加速茶樹品種改良進(jìn)程。
3.數(shù)字化利用與共享
茶樹種質(zhì)資源數(shù)字化鑒定評估產(chǎn)生的數(shù)據(jù)量龐大、標(biāo)準(zhǔn)不一,導(dǎo)致共享利用不便,阻礙了其生物數(shù)據(jù)的有效利用。為了增加不同數(shù)據(jù)集之間的可比性,必須通過科學(xué)的分類、統(tǒng)一的描述規(guī)范和對茶樹種質(zhì)資源的基因組、轉(zhuǎn)錄組、代謝組、表型組等組學(xué)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和評價(jià)。利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù),整合茶樹種質(zhì)資源多組學(xué)數(shù)據(jù),開發(fā)友好型在線分析工具,創(chuàng)建資源共享利用平臺,加快數(shù)字化種質(zhì)資源的利用效率,推動整個(gè)茶科學(xué)的進(jìn)步與發(fā)展。
本文節(jié)選自《中國茶葉》2022年第4期,P1-7,《茶樹種質(zhì)資源數(shù)字化研究及展望》,作者:陳琪予,陳亮,陳杰丹。
信息貴在分享,如涉及版權(quán)問題請聯(lián)系刪除